本文为在Scratchapixel 上学习的翻译读后感与部分个人解读。这里不会将全篇的内容系数翻译,保留原文以便后期自行理解,笔者只精炼一些文章中关键的点出来便于记录。
The Probability Distribution Function 概率密度函数(Probabilify density function):When a function such as the normal distribution defines a continuous probability distribution. In other words, pdfs are used for continuous random variables.
The PDF can be used to calculate the probability that a random variable lies within an interval:
P r ( a ⩽ X ⩽ b ) = ∫ a b p d f ( x ) d x Pr(a \leqslant X \leqslant b) = \int^b_a pdf(x)dx P r ( a ⩽ X ⩽ b ) = ∫ a b p d f ( x ) d x
概率密度函数对概率的积分必为1
∫ − ∞ ∞ g ( x ) d x = 1 \int^{\infty}_{-\infty}g(x)dx = 1 ∫ − ∞ ∞ g ( x ) d x = 1
概率质量函数(the probability mass function)用于描述离散型随机变量; 概率密度函数(probability distribution function)用于描述连续型随机变量。
累积分布函数(Cumulative Distribution Function/Probability distribution function):CDFs are monotonically increasing functions.It’s not strictly monotic though. There may be intervals of constancy.
p d f ( x ) = d d x c d f ( x ) pdf(x) = \frac{d}{dx}cdf(x) p d f ( x ) = d x d c d f ( x )
cdf是pdf在区间[ − ∞ , ∞ ] [-\infty, \infty] [ − ∞ , ∞ ] 上的和,pdf(x)是cdf在「点」x上的斜率/导数
Expected Value of the Function of a Random Variable: Law of the Unconscious Statistician 统计师的无意识法则(law of the unconscious statistician):In practice, you don’t necessarily know the probability distribution of F(X). Of course you can calculate it, but this is an extra step, which you can avoid if you use the second method.
E [ F ( X ) ] = F [ Y ] = ∑ F ( X i ) P X ( X i ) E[F(X)] = F[Y] = \sum F(X_i) P_X(X_i) E [ F ( X ) ] = F [ Y ] = ∑ F ( X i ) P X ( X i )
假定函数F ( X ) F(X) F ( X ) 是关于随机变量X X X 的一个映射(因此F ( X ) F(X) F ( X ) 本身也是随机变量),那么举例而言F ( X ) = ( X − 3 ) 2 F(X) = (X - 3)^2 F ( X ) = ( X − 3 ) 2 ,现求函数F ( X ) F(X) F ( X ) 的期望。
根据期望的定义(离散型随机变量E [ X ] = ∑ i = 0 X i p m f ( X i ) E[X] = \sum_{i=0}X_ipmf(X_i) E [ X ] = ∑ i = 0 X i p m f ( X i ) ,连续型随机变量E [ X ] = ∫ − ∞ ∞ X p d f ( X ) E[X] = \int^{\infty}_{-\infty}Xpdf(X) E [ X ] = ∫ − ∞ ∞ X p d f ( X ) ),我们需要知道F(X)的p d f ( F ( X ) ) pdf(F(X)) p d f ( F ( X ) ) 。
若X X X 的采样空间为S = { 1 , 2 , 3 , 4 , 5 , 6 } S = \{1,2,3,4,5,6\} S = { 1 , 2 , 3 , 4 , 5 , 6 } ,那么对其所有的可能值进行F ( X ) F(X) F ( X ) 计算
X = 1 , F ( 1 ) = ( 1 − 3 ) 2 = 4 , X = 2 , F ( 2 ) = ( 2 − 3 ) 2 = 1 , X = 3 , F ( 3 ) = ( 3 − 3 ) 2 = 0 , X = 4 , F ( 4 ) = ( 4 − 3 ) 2 = 1 , X = 5 , F ( 5 ) = ( 5 − 3 ) 2 = 4 , X = 6 , F ( 6 ) = ( 6 − 3 ) 2 = 9 . \begin{array}{l} X = 1, \; F(1) = (1-3)^2 = 4,\\X = 2, \; F(2) = (2-3)^2 = 1, \ X = 3,\;F(3) = (3-3)^2 = 0, \ X = 4,\;F(4) = (4-3)^2 = 1, \\X=5,\;F(5) = (5-3)^2 = 4,\ X = 6,\;F(6) = (6-3)^2 = 9. \end{array} X = 1 , F ( 1 ) = ( 1 − 3 ) 2 = 4 , X = 2 , F ( 2 ) = ( 2 − 3 ) 2 = 1 , X = 3 , F ( 3 ) = ( 3 − 3 ) 2 = 0 , X = 4 , F ( 4 ) = ( 4 − 3 ) 2 = 1 , X = 5 , F ( 5 ) = ( 5 − 3 ) 2 = 4 , X = 6 , F ( 6 ) = ( 6 − 3 ) 2 = 9 .
也就可以得到p d f ( F ( X ) ) pdf(F(X)) p d f ( F ( X ) ) 的「离散型表达」(连续性和离散型本质相同)
P r ( F ( 0 ) ) = 1 6 P r ( F ( 1 ) ) = 1 6 + 1 6 = 2 6 P r ( F ( 4 ) ) = 1 6 + 1 6 = 2 6 P r ( F ( 9 ) ) = 1 6 . \begin{array}{l} Pr(F(0)) &=& \dfrac{1}{6} \ Pr(F(1)) &=& \dfrac{1}{6} + \dfrac{1}{6} &=& \dfrac{2}{6} \ Pr(F(4)) &=& \dfrac{1}{6} + \dfrac{1}{6} &=& \dfrac{2}{6} \ Pr(F(9)) &=& \dfrac{1}{6}. \end{array} P r ( F ( 0 ) ) P r ( F ( 1 ) ) P r ( F ( 4 ) ) P r ( F ( 9 ) ) = = = = 6 1 6 1 + 6 1 6 1 + 6 1 6 1 . = = 6 2 6 2
最后一步计算F ( X ) F(X) F ( X ) 的期望也就顺理成章
E [ F ( X ) ] = 0 × P r ( F ( X ) = 0 ) + 1 × P r ( F ( X ) = 1 ) + 4 × P r ( F ( X ) = 4 ) + 9 × P r ( F ( X ) = 9 ) , = 0 ∗ 1 6 + 1 ∗ 2 6 + 4 ∗ 2 6 + 9 ∗ 1 6 , = 3 . 1 6 7 . \begin{array}{l} E[F(X)]&=&0 \times Pr(F(X) = 0) + 1 \times Pr(F(X) = 1) + \\ &&4 \times Pr(F(X) = 4) + 9 \times Pr(F(X) = 9),\\ &=&0 \dfrac{1}{6} + 1 \dfrac{2}{6} + 4 \dfrac{2}{6} + 9 \dfrac {1}{6},\\ &=&3.167. \end{array} E [ F ( X ) ] = = = 0 × P r ( F ( X ) = 0 ) + 1 × P r ( F ( X ) = 1 ) + 4 × P r ( F ( X ) = 4 ) + 9 × P r ( F ( X ) = 9 ) , 0 ∗ 6 1 + 1 ∗ 6 2 + 4 ∗ 6 2 + 9 ∗ 6 1 , 3 . 1 6 7 .
所以这里使用随机变量Y Y Y 代替随机变量F ( X ) F(X) F ( X ) ,就有
E [ F ( X ) ] = E [ Y ] = ∑ Y i P Y ( Y i ) … … < 1 > E[F(X)] = E[Y] = \sum Y_i P_Y(Y_i) \text{… …}<1> E [ F ( X ) ] = E [ Y ] = ∑ Y i P Y ( Y i ) … … < 1 >
根本不需要知道F ( X ) F(X) F ( X ) 的具体概率分布,直接根据随机变量X X X 的概率分布就可以求出Y Y Y 的期望。
E [ F ( X ) ] = ( 1 − 3 ) 2 × P r ( X = 1 ) + ( 2 − 3 ) 2 × P r ( X = 2 ) + ( 3 − 3 ) 2 × P r ( X = 3 ) + ( 4 − 3 ) 2 × P r ( X = 4 ) + ( 5 − 3 ) 2 × P r ( X = 5 ) + ( 6 − 3 ) 2 × P r ( X = 6 ) = 4 ∗ 1 6 + 1 ∗ 1 6 + 0 ∗ 1 6 + 1 ∗ 1 6 + 4 ∗ 1 6 + 4 ∗ 1 6 = 3 . 1 6 7 . \begin{array}{l} E[F(X)] & = &(1-3)^2\times Pr(X = 1) + (2-3)^2\times Pr(X = 2) +\\ && (3-3)^2\times Pr(X = 3)+ (4-3)^2\times Pr(X = 4) +\\ && (5-3)^2\times Pr(X = 5) + (6-3)^2\times Pr(X = 6)\\ &=&4 \dfrac{1}{6} + 1 \dfrac{1}{6} + 0 \dfrac{1}{6} + 1 \dfrac{1}{6} + 4 \dfrac{1}{6} + 4 \dfrac{1}{6} \\ &=&3.167. \end{array} E [ F ( X ) ] = = = ( 1 − 3 ) 2 × P r ( X = 1 ) + ( 2 − 3 ) 2 × P r ( X = 2 ) + ( 3 − 3 ) 2 × P r ( X = 3 ) + ( 4 − 3 ) 2 × P r ( X = 4 ) + ( 5 − 3 ) 2 × P r ( X = 5 ) + ( 6 − 3 ) 2 × P r ( X = 6 ) 4 ∗ 6 1 + 1 ∗ 6 1 + 0 ∗ 6 1 + 1 ∗ 6 1 + 4 ∗ 6 1 + 4 ∗ 6 1 3 . 1 6 7 .
原因在于,在计算期望的时候,多做了一步工作。也就是将上述式子当中相同的F ( X i ) F(X_i) F ( X i ) 对应的概率进行了合并(P r ( F ( X i ) = ∑ j = 0 P r ( X j ) ( a l l F ( X i ) = = F ( X j ) ) ) Pr(F(X_i) = \sum_{j=0}{Pr(X_j)}(all F(X_i) == F(X_j))) P r ( F ( X i ) = ∑ j = 0 P r ( X j ) ( a l l F ( X i ) = = F ( X j ) ) ) ),但只为求解他的p d f pdf p d f 。所以事实上这一步在求解期望过程中并不需要 。
E [ F ( X ) ] = E [ Y ] = ∑ F ( X i ) P X ( X i ) … … < 2 > E[F(X)] = E[Y] = \sum{F(X_i)P_X(X_i)}\text{… …}<2> E [ F ( X ) ] = E [ Y ] = ∑ F ( X i ) P X ( X i ) … … < 2 >
对比< 1 > <1> < 1 > 中,我们将中间合并过程得到的P r ( Y i ) Pr(Y_i) P r ( Y i ) 直接替换为了X X X 的概率分布。之所以称之为无意识的,是因为这一个过程非常的直观,以至于没有意识的状态下统计学家就得出了这样一个结论,同时也是毫无疑问正确的,因此而得名,How did the Law of the Unconscious Statistician get its name?
简介背景,目前已有函数P D F ( X ) PDF(X) P D F ( X ) 的一堆数据(这个P D F ( X ) PDF(X) P D F ( X ) 可能是数学分析就可以解决的自然的概率分布 ,或是任意的P D F ( X ) PDF(X) P D F ( X ) ),那么我们就可以通过求解C D F ( X ) CDF(X) C D F ( X ) 的反函数I n v C D F ( X ) InvCDF(X) I n v C D F ( X ) ,进行均匀采样计算就可以得到对应P D F ( X ) PDF(X) P D F ( X ) 的密度分布。
1.计算机中求解的步骤是如何实现的?
首先对已有数据进行累加求解对应累积分布函数(CDF),如图
在y轴上进行均匀采样(Uniform Distribution),假定当前生成随机数r = 0 . 4 9 1 r = 0.491 r = 0 . 4 9 1 ,那么求取其下界(最接近该y值的采样点,且采样点的y s a m p l e ⩽ y y_{sample} \leqslant y y s a m p l e ⩽ y )
以下证明方法和原文略有不同,更好理解
令图中采样点n = 1 5 , n = 1 6 n = 15, n = 16 n = 1 5 , n = 1 6 坐标为( x 1 , y 1 ) , ( x 2 , y 2 ) (x_1, y_1), (x_2, y_2) ( x 1 , y 1 ) , ( x 2 , y 2 )
那么所求随机数生成点( ? , r ) (?, r) ( ? , r ) 的x轴坐标,令d x dx d x 为采样点间间距,随机采样点x坐标「?」与下界x 1 x_1 x 1 之差为k,其中采样区间为[ m i n , m a x ] [min, max] [ m i n , m a x ] ,采样数量为n S a m p l e s nSamples n S a m p l e s
d x = m i n − m a x n S a m p l e s dx = \frac{min - max}{nSamples} d x = n S a m p l e s m i n − m a x
k d x = r − y 1 y 2 − y 1 = t \frac{k}{dx} = \frac{r-y_1}{y_2-y_1} = t d x k = y 2 − y 1 r − y 1 = t
k = t ∗ d x k = t * dx k = t ∗ d x
那么所求「?」即为
? = m i n + n l o w e r ∗ d x + k = m i n + ( n l o w e r + t ) ∗ d x ? = min + n_{lower} dx + k = min + (n_{lower} + t) dx ? = m i n + n l o w e r ∗ d x + k = m i n + ( n l o w e r + t ) ∗ d x
为了将「?」控制在区间[ 0 , 1 ] [0, 1] [ 0 , 1 ] 之间(p d f ( X ) pdf(X) p d f ( X ) 定义),需要做一次映射
? ∽ [ m i n , m a x ] x ∽ [ 0 , 1 ] \begin{array}{l} ? \backsim [min, max] \ x \backsim [0, 1] \end{array}? ∽ [ m i n , m a x ] x ∽ [ 0 , 1 ]
x − m i n ? − 0 = m a x − x 1 − ? ? = x − m i n m a x − m i n \begin{array}{l} \frac{x-min}{?-0} = \frac{max-x}{1-?} \\ ? = \frac{x-min}{max-min} \end{array}? − 0 x − m i n = 1 − ? m a x − x ? = m a x − m i n x − m i n
最终,得到横坐标值之后(也就是在i n v C D F ( X ) invCDF(X) i n v C D F ( X ) 的x轴上均匀采样得到y值)绘图得到
2.上述过程中并没有求反函数过程,为何要求反函数?
本质上当对C D F ( X ) CDF(X) C D F ( X ) 的y轴进行均匀采样求解x的时候,就已经是在隐含求解了,不过因为不是所有的C D F ( X ) CDF(X) C D F ( X ) 都可以显式的通过数学分析变换,因此计算机中求解使用的是通用过程。
3.指数分布的反函数求解过程
P D F ( X ) = λ e − λ x PDF(X) = \lambda e^{-\lambda x} P D F ( X ) = λ e − λ x
P ( X > t ) = ∫ t ∞ λ e − λ x d x = ∫ − ∞ t λ e − λ x − 1 λ d ( − λ x ) \begin{array}{l}
P(X>t) & = & \int^{\infty}_t \lambda e^{-\lambda x}dx \\
& = & \int_{-\infty}^t \lambda e^{-\lambda x} -\frac{1}{\lambda}d(-\lambda x)
\end{array}P ( X > t ) = = ∫ t ∞ λ e − λ x d x ∫ − ∞ t λ e − λ x − λ 1 d ( − λ x )
令u = − λ x u = -\lambda x u = − λ x ,当x = t x = t x = t 时,u = − λ t u = - \lambda t u = − λ t ;当x = ∞ x = \infty x = ∞ , u = − ∞ u = -\infty u = − ∞ ,变换函数x = − 1 λ u x = -\frac{1}{\lambda}u x = − λ 1 u 在[ − ∞ , − λ t ] [-\infty, -\lambda t] [ − ∞ , − λ t ] 上单值,d x d u = − 1 λ \frac{dx}{du} = -\frac{1}{\lambda} d u d x = − λ 1 在[ − ∞ , − λ t ] [-\infty, -\lambda t] [ − ∞ , − λ t ] 上连续
P ( X > t ) = − ∫ − ∞ − λ t e u d u = − [ e u ] − ∞ − λ t = e − λ t − e − ∞ = e − λ t \begin{array}{l} P(X>t) & = & -\int^{-\lambda t}_{-\infty}e^udu \\ & = & -\left[ e^u \right]^{-\lambda t}_{-\infty} \\ & = & e^{- \lambda t} - e^{-\infty} \\ & = & e^{- \lambda t} \end{array} P ( X > t ) = = = = − ∫ − ∞ − λ t e u d u − [ e u ] − ∞ − λ t e − λ t − e − ∞ e − λ t
那么求取P ( x < t ) = 1 − e − λ x = y P(x<t) = 1-e^{-\lambda x} = y P ( x < t ) = 1 − e − λ x = y 的反函数
y = 1 − e − λ x e − λ x = 1 − y x = − 1 λ l n ( 1 − y ) \begin{array}{l} y = 1-e^{-\lambda x} \\ e^{-\lambda x} = 1 - y \\ x = -\frac{1}{\lambda}ln(1-y) \end{array} y = 1 − e − λ x e − λ x = 1 − y x = − λ 1 l n ( 1 − y )
那么最终对此函数进行采样,得到的结果就是指数分布。
原文中有误,缺d x dx d x 且最后结果e幂上少符号缺λ \lambda λ ,y的表达式有误,目前已反馈给Scratchapixel
Estimators 参数(Parameter):参数是指描述总体特征的一个或若干个数值,例如总体(Population)的均值、总体的比例和总体的方差等数字特征,两个或两个以上总体间的相关系数、偏相关系数、复相关系数和回归系数等数字特征。
在一般情况下,总体参数是未知的,例如一个国家或地区的人口总数、GDP总量、小麦总产量、人均可支配收入和产品的合格率等都是总体未知参数,而通过全面调查取得这些未知参数需要付出高昂的成本。参数估计的目的就是利用抽样得到的样本信息来估计未知的总体参数(详情可见参数的概念 )
估计量(Estimator)与估计值(Estimate): The sample mean is a form of estimator, but in the general sense, an estimator is a function operating on observable data and returning an estimate of the population’s parameter value θ θ θ .
This function δ δ δ is what we call an estimator of the parameter θ θ θ and the result of δ ( x 1 , . . . , x n ) δ(x_1,…,x_n) δ ( x 1 , . . . , x n ) is called an estimate of θ θ θ .(An estimation of the population’s paramter θ θ θ ).
采样均值其实就是总体未知参数的一个估计量,本质上估计量就是一组数据的函数。估计量就是随机变量X 1 , . . . , X n X_1, . . . , X_n X 1 , . . . , X n 的一个映射,因此本身他也是随机变量。
常见估计量
样本均值 X ˉ = 1 n ∑ i = 1 n X i \bar{X} = \frac{1}{n} \sum^n_{i=1}X_i X ˉ = n 1 ∑ i = 1 n X i ,是总体均值E [ X ] = μ E[X] = \mu E [ X ] = μ 的估计量
样本方差 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^2 = \frac{1}{n-1}\sum^n_{i=1}(X_i - \bar{X})^2 S 2 = n − 1 1 ∑ i = 1 n ( X i − X ˉ ) 2 是总体方差D ( X ) = σ 2 D(X)=\sigma^2 D ( X ) = σ 2 的估计量;样本标准差 S = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S = \sqrt{\frac{1}{n-1}\sum^n_{i=1}(X_i - \bar{X})^2} S = n − 1 1 ∑ i = 1 n ( X i − X ˉ ) 2 是总体标准差σ \sigma σ 的估计量
样本比例 p ˉ = n 1 n \bar{p}=\frac{n_1}{n} p ˉ = n n 1 是总体比例p的估计量,其中n 1 n_1 n 1 为样本中具有某种特征的样本单位数。
估计量和估计值之间的区别: An estimate is a specific value δ ( x 1 , . . . , x n ) δ(x_1,…,x_n) δ ( x 1 , . . . , x n ) of the estimator which we can determine by using observable values x 1 , . . . , x n x_1,…,x_n x 1 , . . . , x n . The estimator is a function δ ( X ) δ(X) δ ( X ) of the random vector X X X while again, an estimate is a just specific value δ ( x ) δ(x) δ ( x ) .
一句话概括,估计值只是估计总体未知参数的某一估计量,代入样本值计算得到的具体结果
点估计和区间估计 ,这里不做延伸阅读,简单的介绍了置信区间 ,置信度/置信概率/置信系数/置信水平 ,置信上下限 等基本概念。
Properties of Estimators 无偏性(Unbias):
当采样的数量趋于极限时,样本均值就等于总体均值本身
X ˉ n → p θ for n → ∞ \bar X_n \xrightarrow{p} \theta \quad \text{for} n \rightarrow \infty X ˉ n p θ for n → ∞
也就是样本均值的期望就有着如下的关系
E [ X ˉ n ] − θ = 0 . E[\bar X_n] - \theta = 0. E [ X ˉ n ] − θ = 0 .
而满足无偏估计性质的样本均值,样本均值就是估计量本身,替换X n ˉ \bar{X_n} X n ˉ 为σ ( X ) \sigma(X) σ ( X ) ,就有以下两种情况了
E [ δ u n b i a s e d ( X ) ] − θ = 0 . E[\delta_{unbiased}(X)] - \theta = 0. E [ δ u n b i a s e d ( X ) ] − θ = 0 .
E [ δ b i a s e d ( X ) ] − θ ≠ 0 . E[\delta_{biased}(X)] - \theta \neq 0. E [ δ b i a s e d ( X ) ] − θ ≠ 0 .
二者之差就是偏差本身了
E [ δ b i a s e s ( X ) ] − θ = bias . E[\delta_{biases}(X)] - \theta = \text{ bias }. E [ δ b i a s e s ( X ) ] − θ = bias .
正如先前讲到的,计算机图形学中经常采用有偏的方法来完成计算,原因在于有偏的方法可以带来更快速度的收敛计算(前提是满足一致性,这比无偏的性质对一个估计量而言更重要),但却只与真实值之间有着微乎其微的误差。
一致性(Consistency):是指随着样本容量的增大,估计量愈来愈接近总体参数的真值。设总体参数为θ \theta θ ,δ \delta δ 为一估计量,如果当样本容量n → ∞ n \to \infty n → ∞ 时, 依概率收敛于θ \theta θ ,即
P − l i m n → ∞ δ = θ P - lim_{n \to \infty}\delta = \theta P − l i m n → ∞ δ = θ
如果一个估计量是一致估计量,那么可以通过增加样本容量来提高估计的精度和可靠性。
可以证明,样本均值 X ˉ \bar{X} X ˉ 是总体均值μ \mu μ 的一致估计量;样本比例 p ˉ \bar{p} p ˉ 是总体比例p p p 的一致估计量;样本方差 S 2 S^2 S 2 是总体方差σ 2 \sigma^2 σ 2 的一致估计量;样本标准差 S S S 是总体标准差σ \sigma σ 的一致估计量.(详情见估计量评价的标准 )
有效性(Variance):有效性是指估计量与总体参数的离散程度。如果两个估计量都是无偏的,那么离散程度较小的估计量相对而言是较为有效的。离散程度是用方差度量的,因此在无偏估计量中,方差愈小愈有效。
设θ 1 \theta_1 θ 1 与θ 2 \theta_2 θ 2 为总体参数θ \theta θ 的无偏估计量,即E ( θ 1 ) = θ E(\theta_1)=\theta E ( θ 1 ) = θ ,E ( θ 2 ) = θ E(\theta_2)=\theta E ( θ 2 ) = θ ,那么如果两者的方差对比
D ( θ 1 ) ⩽ D ( θ 2 ) D(\theta_1) \leqslant D(\theta_2) D ( θ 1 ) ⩽ D ( θ 2 )
那么称θ 1 \theta_1 θ 1 会比θ 2 \theta_2 θ 2 有效
有效性是一个对比性质,因此是相对的,不存在绝对的自身有效的估计量。